# coding:utf-8

import jieba
from gensim import corpora, models, similarities

text_1 = "今年夏天对于火箭队来说有好有坏，总经理莫雷先是以4年1.6亿美元的顶薪合同续约克里斯保罗，随后再用5年9000万美元续约卡佩拉。这样的结果就是导致阿里扎与巴莫特相继离开，不过火箭管理层为了填补锋线空缺，引进能三分能防守的恩尼斯与迈卡威。而期待已久的甜瓜也决定以240万美元的底薪合同加盟火箭，这对于火箭来说真是一个好消息，不过莫雷依旧不会停下为球队补强的脚步。"
text_2 = "今夏“甜瓜”宣布执行球员选项。为了省税，雷霆队通过一笔三方交易，将安东尼送去老鹰队。最终，安东尼与老鹰队达成买断协议。有消息指出，为了恢复自由身，安东尼放弃了下赛季2790万美元中的240万美元。"
text_3 = "国家卫生健康委员会7日通过官方网站就狂犬病疫苗续种补种有关问题回答公众关切，并表示对接种了长春长生公司狂犬病疫苗的群众提供续种、补种、跟踪观察等健康服务。"
doc_list = [text_1, text_2, text_3]

# 分词
texts = []
for doc in doc_list:
    texts.append([word for word in jieba.cut(doc)])

# 词袋
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

# TF-IDF模型
tfidf = models.TfidfModel(corpus)
similarity_list = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))

'''
[0.9999995  0.02008374 0.        ]
[0.02008374 1.0000002  0.00573657]
[0.         0.00573657 0.9999998 ]
'''
print(similarity_list[tfidf[corpus[0]]])
print(similarity_list[tfidf[corpus[1]]])
print(similarity_list[tfidf[corpus[2]]])
